Knowledge Discovery in Big Data: Herausforderungen durch Big Data im Prozess der Wissensgewinnung am Beispiel des CRISP-DM

نویسندگان

  • Thomas Göpfert
  • Andreas Breiter
چکیده

Der Prozess valide, neuartige, potenziell nutzbare und verständliche Muster in Daten zu finden, wird als Knowledge Discovery in Database Prozess bezeichnet (KDD-Prozess). Die diesem Prozess zu Grunde liegende Datenbasis unterliegt einem ständigen Wandel. Doug Laney erkannte die Eigenschaften Volume, Variety und Velocity als neue Herausforderungen für ITOrganisationen. Heute werden diese Herausforderungen unter dem Begriff Big Data zusammengefasst. Die Auswirkungen von Big Data auf den KDD-Prozess sind bisher unzureichend untersucht. Ziel dieser Arbeit war es, die Herausforderungen durch Big Data im Prozess der Wissensgewinnung am Beispiel des CRISP-DM, eines der am meisten genutzten KDD-Prozessmodelle, zu analysieren. Durch ein systematisches Literaturreview wurden elementare Herausforderungen identifiziert und den Prozessschritten des Prozessmodells zugeordnet. Der überwiegende Teil der Ergebnisse konnten mittels Experteninterviews verifiziert werden. Neben der Identifikation zentraler Herausforderungen wurde deutlich, dass CRISP-DM bei der Analyse von Big Data Gültigkeit hat, aber zentrale Herausforderungen, vor allen in den Phasen der Datenvorverarbeitung, beachtet werden müssen.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Unterstützung datenintensiver Forschung am KIT - Aktivitäten, Dienste und Erfahrungen

Datenintensive Forschung oder auch Big Data in Science adressiert nicht nur die Herausforderungen, die durch die schiere Größe und Menge an produzierten Daten (Volume) entstehen, sondern auch die Fragestellungen rund um die Geschwindigkeit der Entstehung der Daten (Velocity), der Vielfalt der Daten (Variety), der Wahrhaftigkeit und Authentizität der Daten (Veracity) und – nicht zu vergessen – d...

متن کامل

Aufbrechen der Datensilos - Big Data Forschungsfragen aus dem Bereich Industrial Analytics

Aufgrund isolierter Datenhaltung und –verarbeitung in Datensilos kann das volle Potential der Analyse historischer Daten im Umfeld der Prozessindustire oftmals nicht ausgenutzt werden. Big Data Technologien bieten Chancen, diese Situation zu verbessern. Gleichzeit stellen sich aber neue Herausforderungen, die den Einsatz von Big Data in diesem Umfeld behindern. 1 Kurzfassung des Vortrags In ein...

متن کامل

Soziotechnisches Prozessdesign am Beispiel koordinierter Dienstleistungen in einem Wohnquartier

Am Beispiel der Dienstleistungsbestellung mit Hilfe von digitalen Stiften sowie der Koordination der Dienstleistungen in einem Wohnquartier werden die Herausforderungen eines soziotechnischen Projektes herausgestellt, das eine größere räumliche Struktur und eine Gruppe unterschiedlicher Stakeholder einbezieht. Es wird ein breites Methodenspektrum eingesetzt, das Befragung, Ethnografie, Kreativi...

متن کامل

Big Data oder Grand Management Information Design?

Big Data stellt Konzepte, Methoden, Technologien, IT-Architekturen sowie Werkzeuge zur Auswertung großer Volumina vielfältiger Informationen für Management-Entscheidungen bereit. Wichtiger Bestandteil heutiger Big Data-Architekturen stellen mobile Endgeräte wie z.B. Tablet-Computer dar. Am Beispiel des Tablet-Computers Microsoft Surface RT lässt sich aufzeigen, dass designbezogene Fehlentscheid...

متن کامل

Unterstützung forstpolitischer Entscheidungsprozesse durch Computermodelle

Die Entscheidung der Form der Waldbewirtschaftung müssen von dem Bewirtschafter vor dem gesellschaflichen und fortpolitishen Hintergrund getroffen werden. Daher muss für den Prozess der forstpolitschen Disskussion eine Qunatifizierung der komplexen, zeitlichen und räumlichen Auswirkugen forstlicher Maßnahmen auf die Waldentwicklung mittels Computermodellen erfolgen. Ferner können diese Modelle ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2015